generaliability theory

一、G 研究(G-Study)中計算的指標與意義

G 研究的目的,是盡可能完整地定義測量所欲推論的母群,也就是「可允許觀察母群」(universe of admissible observations),並估計不同潛在誤差來源對觀察分數的影響。在此階段,研究者關心的是:觀察分數中的變異,分別來自測量對象本身,以及來自哪些測量層面(facets)或交互作用。

G 研究主要計算的指標包括變異數成分與各變異數成分佔總變異的百分比。

變異數成分(Variance Components,通常記為 σ2

變異數成分是 G 研究中最核心的估計結果。研究者會透過變異數分析(ANOVA)、限制最大概似法(restricted maximum likelihood, REML)或其他估計方法,將觀察分數的總變異拆解為多個來源。

這些來源通常包括:

變異數成分的意義在於,它能指出觀察分數中各種變異來源的絕對大小。例如,若評分者的變異數成分很大,表示不同評分者給分標準可能不一致;若受試者與題目的交互作用變異很大,則表示不同受試者在不同題目上的表現模式不穩定。

因此,G 研究的功能主要是「診斷測量誤差來源」,幫助研究者了解測量結果受到哪些因素影響,以及哪些環節可能需要進一步改善。

佔總變異的百分比(Percentage of Total Variance)

由於變異數成分本身是以原始分數單位的平方表示,數值大小不一定容易直接解釋,因此通常會進一步計算各變異數成分佔總變異的百分比。

其基本計算方式為:

將某一變異數成分除以所有變異數成分的總和,再轉換為百分比。

也就是:

Percentage of total variance=某一變異數成分所有變異數成分總和×100%

這個百分比可以協助研究者比較不同誤差來源的相對影響力。例如:

因此,變異數成分的百分比能將抽象的變異數估計轉換為較直觀的資訊,使研究者能判斷哪些測量層面是主要誤差來源,並據此調整後續的測量設計。

二、D 研究(D-Study)中計算的指標與意義

D 研究的目的,是運用 G 研究所估計出的變異數成分,模擬不同測量設計下的信度與測量誤差。研究者可以在不重新收集資料的情況下,預測若改變評分者人數、題目數、測量次數等條件,測量結果的穩定性與精確度會如何改變。

例如,研究者可以比較以下不同設計:

D 研究的核心,是將 G 研究中的變異數成分依照預定的測量設計進行調整。例如,若未來測量設計中使用 nr 位評分者、ni 道題目,則與評分者或題目相關的誤差變異數會依據這些樣本數進行縮減。一般而言,增加評分者、題目或測量次數,會降低相對應的誤差變異數,進而提高信度係數。

在 D 研究中,主要計算的指標包括:

誤差變異數(Error Variances) 在 D 研究中

D 研究中的誤差變異數會依照決策目的分為兩類:相對誤差變異數與絕對誤差變異數。兩者的差異在於是否將測量層面的主效應納入誤差來源。

若研究者關心的是受試者之間的相對排序,則應使用相對誤差變異數;若研究者關心的是受試者是否達到某個固定標準,則應使用絕對誤差變異數。

相對誤差變異數(Relative error variance,記為 σδ2σrel2

相對誤差變異數用於相對性決策(relative decisions)或常模參照決策(norm-referenced decisions)的情境。這類決策關心的是受試者之間的相對位置或排名,而不是受試者的絕對分數水準。

例如:

在計算相對誤差變異數時,只納入與測量對象產生交互作用的誤差變異,例如受試者與評分者、受試者與題目、受試者與測量時間之間的交互作用。這些交互作用會影響受試者之間的相對排序,因此會被視為相對決策中的誤差來源。

相對誤差變異數通常不納入測量層面的主效應,例如評分者主效應或題目主效應。原因是,在相對性決策中,若某位評分者整體上比較嚴格,或某些題目整體上比較困難,這些影響會作用在所有受試者身上。只要所有受試者受到的影響方向相同,彼此之間的相對排序通常不會改變。因此,這類主效應不會被納入相對誤差變異數。

相對誤差變異數會用來計算概化係數(generalizability coefficient),通常記為 Eρ2

絕對誤差變異數(Absolute error variance,記為 σΔ2σabs2

絕對誤差變異數用於絕對性決策(absolute decisions)或效標參照決策(criterion-referenced decisions)的情境。這類決策關心的是受試者的分數是否達到某個固定標準,而不是受試者與其他人相比的相對位置。

例如:

在計算絕對誤差變異數時,必須納入所有會影響受試者絕對分數判斷的誤差來源。這些來源不僅包括測量對象與各層面之間的交互作用,也包括各測量層面的主效應。

之所以需要納入主效應,是因為在絕對性決策中,受試者的分數會被拿來與固定標準進行比較。若某位評分者特別嚴格、某些題目特別困難,或某個測量時間點的整體表現偏低,這些主效應都可能直接影響受試者是否通過標準。因此,這些系統性差異即使不影響受試者之間的排名,也會影響受試者的絕對分數判斷,必須計入絕對誤差變異數。

絕對誤差變異數會用來計算可靠度係數或依賴性係數(dependability coefficient),通常記為 Φ

coefficient of criterion-referenced measurement

在效標參照測量中,若研究者關心的是受試者是否能被正確分類為通過或未通過某個標準,則可以使用與特定切截分數相關的可靠度係數。這類係數可視為絕對性決策下的進階應用,常與 cut-score specific dependability coefficient、Livingston coefficient,以及 Brennan-Kane 指標等概念相關。

當測量目的在於根據特定切截分數 C 將受試者分類時,例如判斷是否達到 60 分及格標準,研究者關心的不只是分數本身的精確度,而是觀察分數能否正確反映受試者的母群分數位於切截分數之上或之下。

這類係數通常會在公式中納入以下三個元素:

其中,(Y¯C)2 可視為一種偏差校正項或切截分數距離項。其意義是:當整體平均數 Y¯ 與切截分數 C 距離越遠時,受試者因測量誤差而被錯誤分類的可能性通常越低,因此估計出的分類可靠度會較高。

相反地,若切截分數 C 接近整體平均數 Y¯,則許多受試者的分數可能集中在通過與未通過的邊界附近。此時,即使測量誤差不大,也可能導致較高的錯誤分類風險,因此分類決策的可靠度會較低。

只有在切截分數 C 等於整體平均數 Y¯ 的特殊情況下,這類切截分數特定的效標參照係數才會等同於一般的全域絕對可靠度係數 Φ

因此,coefficient of criterion-referenced measurement 的實務意義在於評估:在特定切截點下,例如 60 分及格,測量結果所形成的通過或未通過分類有多可靠。

信度係數(Reliability-like Coefficients) 類似於古典測驗理論的信度,但 D 研究提供兩種係數來對應不同的決策目的:

在 D 研究中,信度係數的概念與古典測驗理論(classical test theory, CTT)中的信度相似,都是在描述觀察分數中有多少比例可歸因於受試者之間真實差異,而非測量誤差。不過,概化理論更進一步區分不同決策目的,因此提供了兩種主要的信度類係數:概化係數與可靠度係數。

母群分數變異數(universe score variance,通常記為 σ2(τ)σp2)在概化理論中扮演類似於 CTT 中真實分數變異數(true score variance)的角色。母群分數是指一位受試者在所有可允許測量條件下的期望平均分數,因此母群分數變異數反映的是受試者之間真實存在的能力差異,也就是測量中真正關心的訊號。

無論是相對性決策或絕對性決策,母群分數變異數都會作為信度係數公式中的分子。其基本邏輯為:

信度類係數=母群分數變異數母群分數變異數+誤差變異數

因此,當母群分數變異數越大,或誤差變異數越小時,信度係數就會越高。換言之,若測量工具能穩定區分受試者之間的真實能力差異,且測量誤差相對較小,則該測量設計會具有較高的信度。

測量標準誤(Standard Error of Measurement, SEM)

測量標準誤是將誤差變異數轉換回原始測量分數單位的指標。由於信度係數通常是介於 01 之間的比例,雖然可以反映整體測量穩定性,但不一定容易讓使用者直接理解誤差的實際大小。因此,SEM 能提供更具體的分數解釋。

SEM 的基本計算方式為將誤差變異數開平方根:

SEM 的意義是指出觀察分數中可能包含多少測量誤差,並以原始分數單位呈現。例如,若測驗分數單位是考試得分,SEM 就可以解釋為受試者觀察分數可能上下波動的分數範圍;若測量的是每分鐘正確閱讀字數,SEM 則可解釋為閱讀流暢度估計值的不確定範圍。

因此,SEM 可用來建立信賴區間或解釋個別分數的精確度。例如,在近似常態分布的假設下,研究者可以用觀察分數加減約 1 個或 2 個 SEM,來描述受試者真實分數可能落入的範圍。

總結來說,G 研究主要計算變異數成分及其佔比,目的在於診斷並量化測量工具中的不同誤差來源;D 研究則運用 G 研究所估計出的變異數成分,計算特定測量設計下的誤差變異數、信度係數與測量標準誤,目的在於預測並優化未來的測量條件。

換言之,G 研究回答的是「測量誤差來自哪裡」;D 研究回答的是「在不同測量設計下,測量結果會有多可靠」。透過 D 研究,研究者可以在成本、時間與測量品質之間取得平衡,例如評估使用 3 位評分者搭配 10 道題目時,信度是否能達到 0.80 以上。

參考文獻

Briesch, A. M., Swaminathan, H., Welsh, M., & Chafouleas, S. M. (2014). Generalizability theory: A practical guide to study design, implementation, and interpretation. Journal of School Psychology, 52(1), 13–35. https://doi.org/10.1016/j.jsp.2013.11.008

Huebner, A., Skar, G. B. U., & Huang, M. (2025). Mixed Model Generalizability Theory: A Case Study and Tutorial [Application/pdf]. 30(1). https://doi.org/10.7275/PARE.2376

Vispoel, W. P., Morris, C. A., & Kilinc, M. (2018). Practical Applications of Generalizability Theory for Designing, Evaluating, and Improving Psychological Assessments. Journal of Personality Assessment, 100(1), 53–67. https://doi.org/10.1080/00223891.2017.1296455